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Изложена методика нейросетевого анализа данных (сіаіа тіпіпд). Показано, что применение нейронных сетей Кохонена позво- 
ляет эффективно выделять группы связанны данных и определять между ними закономерности. Разработана информационная 
система для геофизической предметной области. 


Развитие технологии интеллектуального анали- 
за данных (ИАД) вызвано рядом объективных фак- 
торов. Главные из них: накопление большого коли- 
чества данных в различных предметных областях и 
скорость накопления информации намного превы- 
сила скорость ее обработки. Только научные 
учреждения за один день записывают информации 
примерно на 1 терабайт (по данным аналитическо- 
го отдела американской компании СТЕ). При этом 
наука является не самым большим источником 
данных, и существуют огромные базы данных в 
сфере коммерции, энергетики, геологии, медици- 
не, управляющих структурах оргсистем. 

На сегодняшний день технология ИАД содер- 
жит множество различных подходов к обнаруже- 
нию знаний. Каждый из них имеет свои преимуще- 
ства и недостатки. При этом выбор конкретного 
подхода определяется спецификой предметной 
области и организацией данных [1]. Целесообразно 
применение ИАД для выявления знаний в боль- 
шом количестве данных сейсмической разведки 
полезных ископаемых. 

При обработке результатов в сейсморазведке 
для построения прогностических моделей тради- 
ционно используется аппарат многомерной линей- 
ной регрессии. Его использование имеет следую- 
щие сложности и ограничения: 

• Ограничение классом линейных зависимостей. 
Искомая прогностическая модель сразу пред- 
полагается линейной. Хотя и возможно исполь- 
зование нелинейного преобразования незави- 
симого параметра, эта процедура носит доста- 
точно произвольный характер, и итоговая мо- 
дель все равно будет линейно зависеть от преоб- 
разованных параметров. 

• Сложность выделения влияющих параметров. 
Из-за большого количества динамических пара- 
метров некоторые из них даже не рассматрива- 
ются как кандидаты на участие в модели. С дру- 
гой стороны, в модель, согласно требованиям 
классической статистики, включаются только 
независимые параметры. Однако, зависимые 
параметры, в совокупности, могут также нести 
ценную информацию о целевом параметре. 

• Зашумленность входной информации. Сейсмо- 
разведка района проводится в течение несколь- 


ких лет различными исследовательскими пар- 
тиями, с использованием различного оборудо- 
вания и т. п. Поэтому, зачастую в данных раз- 
ведки встречаются выбросы - резко нетипич- 
ные значения. Эти выбросы значительно влия- 
ют на строимые линейные модели. 

Аппарат нейронных сетей свободен от перечи- 
сленных недостатков: нейросети могут аппрокси- 
мировать любую непрерывную функцию, автома- 
тически проводят анализ чувствительности влия- 
ния входных параметров на результат, устойчивы к 
шуму в исходных данных. 

В качестве основных функциональных требова- 
ний к интеллектуальным нейросетевым системам 
можно выделить: 

• совместимость форматов хранения информации с 
наиболее распространенными средствами таблич- 
ной обработки данных (М8 Ассе®, М$ Ехсеі). 

• возможность обработки не только числовой, но 
и текстовой информации, 

• возможность нормализации исходных обучаю- 
щих данных различными способами, 

• классификация обучающих данных посред- 
ством обучения нейросети. 

• визуализация полученных карт различными 
способами. 

Выделенные функциональные требования упоря- 
дочены в соответствии с жизненным циклом процес- 
са ИАД, что позволяет создать информационную си- 
стему интеллектуального анализа данных (ИСИАД), 
предназначенную для решения задач кластеризации 
и классификации разнородной информации. Спосо- 
бом классификации данных, реализованным в систе- 
ме, является нейронная сеть Кохонена. 

Нейронная сеть Кохонена (самоорганизующая- 
ся карта Кохонена) решает задачи классификации 
многомерных векторов. Достоинством сети, по 
сравнению с другими алгоритмами, является лег- 
кость визуализации и интерпретации полученных 
результатов. Обучение сети проходит без учителя, 
только на основе выборки входных данных (так на- 
зываемое неуправляемое обучение). 

Различные типы визуализации обученной сети 
позволяют легко выявить структуру входной ин- 
формации: унифицированная матрица расстояний 
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отображает кластерную структуру данных, график 
компонентов позволяет установить форму зависи- 
мости входных параметров, плоскость компонен- 
тов и карта попаданий отражают распределение 
входных параметров. 

Структурная схема ИСИАД приведена на рис. 1. 

Модуль предобработки выполняет создание и 
хранение таблицы обучающих данных. Дополни- 
тельно модуль обеспечивает нормализацию табли- 
цы обучающих данных. В качестве средства хране- 
ния была выбрана СУБД М$ Ассезз, являющаяся 
составной частью модуля. 

Функция «Импорт данных» в ИСИАД реализу- 
ется средствами СУБД. Поэтому важным критери- 
ем выбора СУБД становится развитость ее средств 
обмена данными. 

Функция «Создание классификаторов» сопоста- 
вляет текстовым значениям категориальных (пере- 
числимых) данных числовой код. После такого со- 
поставления все атрибуты принимают только чи- 
словые значения, и данные являются подготовлен- 
ными для использования в алгоритме обучения. 

Нормализация данных осуществляется по ука- 
занию пользователя, масштабированием значений 
каждого параметра в диапазон [0; 1 ] . Нормализуют- 
ся уже подготовленные данные. 

Модуль обучения нейросети реализует итератив- 
ный алгоритм обучения карты Кохонена. 


Функция «Настройка параметров» данного мо- 
дуля позволяет настроить конфигурацию самой 
карты (размеры карты и тип), а также параметры ее 
обучения (количество итераций, способ инициали- 
зации и др.). 

Функция «Обучение» непосредственно позво- 
ляет обучить сеть Кохонена. Для доступности дан- 
ной функции предварительно должны быть подго- 
товлены исходные данные. 

Расчет качества классификации может быть вы- 
полнен только после обучения нейросети. 

После обучения карты Кохонена дополнитель- 
но может быть выполнена ее кластеризация алго- 
ритмом ^-средних. Алгоритм ^-средних может 
применяться непосредственно к исходным дан- 
ным. Однако, данный алгоритм имеет ряд недо- 
статков и вычислительно сложен. К тому же, для 
классификации новых данных требуется новая 
прогонка алгоритма. 

Модуль визуализации является одним из важ- 
нейших модулей, так как анализ полученной карты 
строится на различных способах ее графического 
отображения. 

Данный модуль реализует четыре способа ото- 
бражения карты Кохонена: унифицированная ма- 
трица расстояний, карта попаданий, плоскость 
значений некоторого компонента, график компо- 
нентов. 



Рис. 1 . Структурная схема ИСИАД 
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Визуализация карты требует дополнительных 
промежуточных вычислений. Результаты этих вы- 
числений сохраняются в базе данных для после- 
дующего использования. 

В качестве исходных данных для тестирования 
информационной системы использованы данные 
сейсмической разведки. Процесс сейсмической 
разведки заключается в проведении последова- 
тельных взрывов зарядов на местности через опре- 
деленные расстояния (50, 100 и т. д. метров). После 
каждого взрыва, установленные датчики фиксиру- 
ют параметры взрывной волны, отраженной от гео- 
логических пластов. Линия, вдоль которой прово- 
дятся взрывы, называется профилем. 

Для построения прогностических моделей кар- 
ты параметров дискретизируют и используют сетки 
параметров - значения параметра в узлах регуляр- 
ной сетки (шаг сетки - 100 м). 

Основной задачей сейсморазведки является 
прогнозирование значений параметров, влияющих 
на содержание нефти в пластах породы, вдоль кар- 
ты района. Такими параметрами являются: пори- 
стость и проницаемость горизонта. Исходными 
данными для прогноза являются сетки структур- 
ных и динамических параметров, соотнесенные с 
пробами пластов. 


Обработка полученной информации позволяет 
выделить различные акустические характеристики 
пластов (горизонтов). Причем количество этих па- 
раметров может быть достигать до 200 и более. 
Примеры параметров: время прихода отраженной 
от горизонта волны, средняя энергия, амплитуда 
волны, фаза и т. д. 

Параметры делятся на структурные, относящиеся 
к профилю разведываемой поверхности, (время при- 
хода волны, глубина) и динамические, описывающие 
отраженную взрывную волну (амплитуда, энергия). 

Значения параметров измеряются вдоль взрыв- 
ных профилей. Затем проводится интерполяция 
параметров между профилями. В итоге получается 
карта параметра - графическое изображение ра- 
спределения значения параметра по равномерной 
сетке. Всего, в виде сеток, получены значения 26 
параметров. Все они участвовали в обучении ней- 
росети. Задачей являлось установление зависимо- 
стей между параметрами и степени их влияния на 
целевой параметр пористости. 

Пример карты параметра приведен на рис. 2. 

Пунктирными линиями на рисунке показаны 
профили взрывов. Значения входных параметров 
могут быть определены не в каждой точке сетки, 
например, из-за отсутствия вблизи данной точки 



Рис. 2. Карта параметра «Пористость горизонта Ь9», Ь9 - значения сетки 
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взрывного профиля. Поэтому в исходной таблице 
данных содержатся пропущенные значения. Стро- 
ки, содержащие пропущенные значения, были уда- 
лены из таблицы (очистка данных). После очистки 
осталось 54509 записей. 


Перед обучением нейросети процесс подготов- 
ки данных заключается в присвоении числовых 
значений текстовым параметрам и (если задан со- 
ответствующий параметр нейросети) нормализа- 
ции полученной таблицы. 



Рис 3. Г оафик компонентов для пары (Гл. Ь9-1, Пор Ь9- 1) 
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Рис 4. Г оафик компонентов для пары (Эн. общ. 22 6, Эн. сред. 10 б) 
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Для поиска зависимостей между параметрами 
используют визуализированные плоскости компо- 
нентов. Для этого в ИСИАД формируются плоско- 
сти всех компонентов и осуществляется их пере- 
группировка, располагающая сходные плоскости 
рядом. Такое расположение позволяет легко выде- 
лить зависимые компоненты входных векторов, 
поскольку для них в одинаковых местах карты бу- 
дут находиться схожие шаблоны карты. Выявлено 
четыре группы коррелирующих компонентов. 
Установление конкретных форм зависимостей 
проводится при помощи графиков компонентов. 

На рис. 3 приведен график компонентов для па- 
ры данных (Глубина Ь9-1, Пористость Ъ9-1). 

Анализ рисунка позволяет выявить четкую линей- 
ную зависимость между этими параметрами. Устано- 
вление параметров данной зависимости может быть 
проведено при помощи любого из статистических ме- 
тодов. График компонентов для пары (Энергия, об- 
щая. 22 В, Энергия, средняя. 10 В) приведен на рис. 4. 

Между данными параметрами также существует 
линейная зависимость. График компонентов для 
пары (Общая, абсолютная, амплитуда. Ъ9-1, Энер- 
гия. общая. Ь9-1) приведен на рис. 5. 

Видно, между параметрами энергии и амплиту- 
ды существует зависимость, близкая к квадратич- 
ной. 

Анализ графиков других пар компонентов по- 
зволяет установить факты существования между 
ними линейных зависимостей. Данная группа па- 


раметров является сильно коррелирующей между 
собой. Поэтому, при построении модели численно- 
го прогноза в число значимых параметров следует 
включать только один из них. 

Четвертая группа коррелирующих параметров 
интересна тем, что о данной зависимости не было 
ничего известно до начала процесса ИАД. На рис. 6 
приведен график компонентов для пары (Дискрета 
44 Па, Проницаемость Ь9- 12 16оЬ). 

Зависимость между компонентами подобна ли- 
нейной, однако разброс точек от основной линии 
достаточно велик. Это говорит о том, что на пара- 
метр проницаемости влияют также и другие пара- 
метры, не вошедшие в анализ. 

Проведенный анализ не выявил во входной ин- 
формации кластерной структуры. Это связано с 
тем, что все параметры являются численными ха- 
рактеристиками и имеют непрерывный числовой 
диапазон изменения, причем большинство из них 
независимо. В связи с этим, нельзя было сравнить 
распределение значений компонентов по различ- 
ным кластерам, сравнить «населенность» класте- 
ров (используя карту попаданий) и на этой основе 
дать описание типичных представителей кластера. 

В то же время проведенный интеллектуальный 
анализ данных позволил: 

• получить наглядное представление о структуре 
входной информации. 

• выделить группы зависимых компонент и вы- 
явить тип зависимостей между компонентами. 
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Рис 6. Г оафик компонентов для пары (Дискрета 44 На, Прониц Ь9- 12 16оЬ) 


• сделать вывод об отсутствии кластерной струк- 
туры входных данных, что обусловлено незави- 
симостью большей части параметров. 

• выделить четыре группы коррелирующих пара- 
метров, содержащие от двух до восьми компо- 
нент. 

• установить формы зависимостей параметров 
внутри групп. 

Полученная информация может быть исполь- 
зована при построении числовых моделей прогно- 
зирования целевых параметров, либо с помощью 
классических статистических методов, либо с по- 
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мощью искусственных нейронных сетей с обрат- 
ным распространением ошибки, что открывает 
большие возможности по интерпретации получен- 
ных результатов. Определение группы параметров, 
коррелирующих с целевой функцией, позволяет 
сразу выделить значимые компоненты, которые 
должны войти в числовую модель прогноза, и, тем 
самым, сократить размерность задачи. 

Разработанная информационная система не 
привязана к конкретной предметной области. Это 
позволяет аналитику применять ее в любой обла- 
сти, после соответствующей предобработки нако- 
пленной в ней информации. 
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МЕТОДИКА ЛОКАЛИЗАЦИИ ИЗОБРАЖЕНИЯ ЛИЦА 
ДЛЯ СИСТЕМ ВИДЕОКОНТРОЛЯ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ 

А.А. Макаренко, В.Т. Калайда 

Томский государственный университет систем управления и радиоэлектроники 
Е-таіІ: та ка Іекз@таіІ .ги 

Предлагается метод и алгоритм локализации лица человека для автоматизированных систем распознавания и видеоконтроля на 
базе сверточных нейронных сетей. Преимущество использования свёрточных нейронных сетей в том, что они обеспечивают 
устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и другим искажениям входного изображения. 
Обосновывается топология используемой нейронной сети и методика ее обучения. 


Нейронные сети успешно применяют в реше- 
нии многих проблем распознавания образов [1-3]: 
распознавание символов, распознавание объектов, 
и многих других. Проблема обнаружения образа 
лица очень трудна из-за большого разнообразия 
искажений, таких как различное выражение лица, 
условия съемки и т. д. Преимущество использова- 
ния нейронных сетей для обнаружения лица - об- 
учаемость системы для выделения ключевых ха- 
рактеристик лица из обучающих выборок. 

В настоящее время наиболее часто в задачах 
распознавания и идентификации изображений ис- 
пользуют классические нейросетевые архитектуры 
(многослойный персептрон, сети с радиально-ба- 
зисной функцией и др.), но, как показывает анализ 
данных работ, применение классических нейросе- 
тевых архитектур к данной задаче является неэф- 
фективным по следующим причинам: 

• к данной задаче обычно применяется ансамбль 
нейронных сетей (2-3 нейронные сети, обучен- 
ные с различными начальными значениями си- 
наптических коэффициентов и порядком предъя- 
вления образов), что отрицательно сказывается на 
вычислительной сложности решения задачи и со- 
ответственно на времени выполнения; 

• как правило, классические нейросетевые архи- 
тектуры используются в совокупности с вспо- 
могательными методами выделения сюжетной 
части изображения (сегментация по цвету ко- 
жи, выделение контуров и т. д.), которые требу- 
ют качественной и кропотливой предобработки 
обучающих и рабочих данных, что не является 
эффективным; 

• нейросетевые архитектуры являются крайне 
чувствительными к влиянию различных внеш- 
них факторов (изменения условий съемки, при- 
сутствие индивидуальных особенностей на изо- 
бражении, изменение ориентации). 

Дополнительно возникают трудности примене- 
ния традиционных нейронных сетей к реальным зада- 
чам распознавания и классификации изображений. 

Во-первых, как правило, изображения имеют 
большую размерность, соответственно вырастает 
размер нейронной сети (количество нейронов и 
т. п.). Большое количество параметров увеличивает 


вместимость системы и соответственно требует 
большей обучающей выборки, что увеличивает вре- 
мя и вычислительную сложность процесса обучения. 

Во-вторых, недостаток полносвязной архитек- 
туры - то, что топология ввода полностью игнори- 
руется. Входные переменные могут быть предста- 
влены в любом порядке, не затрагивая цель обуче- 
ния. Напротив, изображения имеют строгую 
2-мерную местную структуру: переменные (пиксе- 
ли), которые являются пространственно соседни- 
ми, чрезвычайно зависимы. 

От данных недостатков свободны так называ- 
емые свёрточные нейронные сети. Свёрточные 
нейронные сети обеспечивают частичную устойчи- 
вость к изменениям масштаба, смещениям, пово- 
ротам, смене ракурса и другим искажениям. Свёр- 
точные нейронные сети объединяют три архитек- 
турных идеи, для обеспечения инвариантности к 
изменению масштаба, повороту, сдвигу и про- 
странственным искажениям: 

• локальные рецепторные поля (обеспечивают 
локальную двумерную связность нейронов); 

• общие веса (обеспечивают детектирование не- 
которых черт в любом месте изображения и уме- 
ньшают общее число весовых коэффициентов); 

• иерархическая организация с пространствен- 
ными подвыборками. 

Топология нейронной сети, используемой в ра- 
боте, изображена на рис. 1. 

Свёрточная нейронная сеть является много- 
слойной. Используются слои двух типов: свёрточ- 
ные и подвыборочные. Свёрточные и подвыбороч- 
ные слои чередуются друг с другом. В свою оче- 
редь, каждый из этих слоёв состоит из набора пло- 
скостей, причём нейроны одной плоскости имеют 
одинаковые веса (так называемые общие веса), ве- 
дущие ко всем локальным участкам предыдущего 
слоя (как в зрительной коре человека). Изображе- 
ние предыдущего слоя сканируется небольшим ок- 
ном и пропускается сквозь набор весов, а результат 
отображается на соответствующий нейрон текуще- 
го слоя. Таким образом, набор плоскостей предста- 
вляет собой карты характеристик, и каждая пло- 
скость находит «свои» участки изображения в лю- 
бом месте предыдущего слоя. 
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Слой С2 

Рис. 1. Схема используемой нейронной сети 

Используемая в работе нейронная сеть состоит 
из шести слоев. Входными данными нейронной се- 
ти являются полутоновые изображения размером 
32x36 пикселей, которые классифицируются как 
лицо или «нелицо». Так как задача, решаемая ней- 
ронной сетью, - классификация, то для ее реше- 
ния достаточно одного выхода. Выходное значение 
нейронной сети находится в интервале [— 1;1], что 
соответственно означает отсутствие или присут- 
ствие лица на классифицируемом изображении. 

Входной слой размером 32x36 нейронов не не- 
сет какой-либо функциональной нагрузки и служит 
лишь для подачи входного образа в нейронную сеть. 
Следом за входным слоем находится сверточный 
слой СІ. Каждый нейрон в плоскости свёрточного 
слоя получает свои входы от некоторой области 
предыдущего слоя (локальное рецептивное поле), 
то есть входное изображение предыдущего слоя как 
бы сканируется небольшим окном и пропускается 
сквозь набор весов, а результат отображается на со- 
ответствующий нейрон свёрточного слоя. 

Процесс функционирования нейрона свёрточ- 
ного слоя задается выражением: 

у ( :- л =ь к+ ±± ч ^-^\ 

5=1 1=1 

где у / ,у) - нейрон к - ой плоскости свёрточного слоя, 
Ь к - нейронное смещение к - ой плоскости, К- раз- 


мер рецептивной области нейрона, \ѵ ы - элемент 
матрицы синаптических коэффициентов, х - вы- 
ходы нейронов предыдущего слоя. 

Слой СІ состоит из 5 свёрточных плоскостей и 
выполняет свёртывание входного изображения с 
помощью синаптической маски размером 5x5, та- 
ким образом, слой СІ осуществляет 5 свёрток вход- 
ного изображения. 

Размер свёрточной плоскости определяется в 
соответствии со следующими выражениями: 

\ѵ с = \ѵ и - К + 1 , 
к. = \ -К + 1 , 


где \ѵ с , Н с - ширина и высота свёрточной плоскости 
соответственно, \ѵ, И - ширина и высота плоскости 
предыдущего слоя, К - ширина (высота) окна ска- 
нирования. 

Исходя из выражений для расчета размера свёр- 
точной плоскости имеем, что размер плоскости 
сверточного слоя СІ - 28x32 нейрона. Нейроны в 
слое организованы в плоскости, в пределах кото- 
рых все нейроны имеют один и тот же набор синап- 
тических коэффициентов. Набор выходных сигна- 
лов в такой плоскости называют картой характери- 
стик. Полный свёрточный слой составлен из нес- 
кольких карт характеристик с различными набора- 
ми синапсов так, чтобы множественные характери- 
стики могли быть извлечены в каждом местополо- 
жении. Таким образом, набор плоскостей предста- 
вляет собой карты характеристик, и каждая пло- 
скость находит «свои» участки изображения в лю- 
бом месте предыдущего слоя. 


Как указано выше каждая плоскость слоя СІ 
имеет собственную синаптическую маску и ней- 
ронное смещение, рецептивные области нейронов 
пересекаются, нейроны извлекают одни и те же 
особенности входного изображения, независимо 
от их точного местоположения. Таким образом, 
слой СІ имеет всего лишь 130 настраиваемых пара- 
метров (синапсов). 


Следующий за слоем СІ подвыборочный слой 
51 состоит из 5 карт характеристик и обеспечивает 
локальное усреднение и подвыборку. Этот слой так- 
же состоит из плоскостей количество плоскостей 
такое же, как и в предыдущем слое. Рецепторная 
область каждого нейрона - 2x2 область в соответ- 
ствующей карте особенностей предыдущего слоя. 
Каждая нейрон вычисляет среднее его четырех вхо- 
дов, умножает на синаптический коэффициент, до- 
бавляет нейронное смещение и передает результат 
через активационную функцию. Процесс функцио- 
нирования нейрона подвыборочного слоя задается 
следующим соотношением: 


Ук 


а.л 


= Ь к 


-щ. 


2 2 

^ ^ х (ш у V) ■* .да у № 

5=1 (=1 


Затем полученный результат подвыборки пере- 
дается через активационную функцию. После опе- 
рации подвыборки, точное местоположения и спе- 
цифические признаки каждой особенности изо- 


114 





Технические науки 


бражения становятся менее важными, что дает 
нейронной сети довольно большую степень инва- 
риантности. 

Смежные нейроны в подвыборочном слое име- 
ют непересекающиеся рецептивные области. Сле- 
довательно, карта особенности слоя подвыборки 
имеет половину числа рядов и колонок карты осо- 
бенности в предыдущем слое. В качестве актива- 
ционной функции используется гиперболический 



Каждая плоскость слоя 51 связана лишь с одной 
плоскостью слоя С1. Размер каждой плоскости 
слоя 51 - 14x16 нейронов, что вдвое меньше чем 
размер плоскости предыдущего слоя. Каждая пло- 
скость слоя 51 имеет единственный синаптический 
коэффициент и нейронное смещение, что дает в 
итоге 10 настраиваемых параметров. 

Свёрточный слой С2 состоит из 20 плоскостей, 
слои 51 и С2 перекрестно связаны. Плоскости слоя 
С2 формируются следующим образом: каждая из 5 
плоскостей слоя 51 свёрнута 2 различными синап- 
тическими масками 3x3, обеспечивая 10 плоско- 
стей в С2, другие 10 плоскостей С2 получены, сум- 
мируя результаты 2 свёртываний на каждой воз- 
можной паре плоскостей слоя 51 . Таким образом, 
сети добавляется способность объединять различ- 
ные виды характеристик, чтобы составлять новые 
менее зависящие от искажений входного изобра- 
жения. 

Размер плоскости слоя С2 - 12x14 нейронов. 
Таким образом, данный слой имеет 290 синаптиче- 
ских коэффициентов. Слой 52 состоит из 20 пло- 
скостей, размер каждой 6x7 нейронов. Каждая 
плоскость слоя 52 имеет единственный синаптиче- 
ский коэффициент и нейронное смещение, что да- 
ет в итоге 40 настраиваемых параметров. 

Слои 7Ѵ1 и Л^2 содержат простые нейроны. Роль 
этих слоев состоит в обеспечении классификации, 
после того, как выполнены извлечение особенно- 
стей и сокращение размерности входа. В слое М 
находится 20 нейронов (по одному на каждую пло- 
скость слоя 52), каждый нейрон полностью связан 
с каждым нейроном только одной плоскости слоя 
52, он выполняет взвешенное суммирование своих 
42 входов, добавляет нейронное смещение и про- 
пускает результат через активационную функцию. 
Таким образом, данный слой содержит 860 синап- 
тических коэффициентов. 

Единственный нейрон слоя N2 полностью свя- 
зан со всеми нейронами слоя М . Роль этого нейро- 
на в вычислении окончательного результата клас- 
сификации. Выход этого нейрона используется для 
классификации входного образа на лица и не лица. 

Использование принципа объединения весов 
дает эффект уменьшения количества настраивае- 
мых параметров нейронной сети. Данная нейрон- 
ная сеть имеет 1351 синаптический коэффициент. 


Способность к обучению является фундамен- 
тальным свойством мозга. В контексте искусствен- 
ных нейронных сетей процесс обучения может рас- 
сматриваться как настройка архитектуры сети и ве- 
сов связей для эффективного выполнения спе- 
циальной задачи. Процесс функционирования 
нейронной сети зависит от величин синаптических 
связей, поэтому, задавшись определенной структу- 
рой нейронной сети, отвечающей какой-либо зада- 
че, необходимо найти оптимальные значения всех 
переменных коэффициентов (некоторые синапти- 
ческие связи могут быть постоянными). Этот этап 
называется обучением нейронной сети, и от того, 
насколько качественно он будет выполнен, зависит 
способность сети решать поставленные перед ней 
проблемы во время эксплуатации. В основе всех 
алгоритмов обучения положен единый принцип - 
минимизация эмпирической ошибки. Функция 
ошибки, оценивающая данную конфигурацию се- 
ти, задается извне в зависимости от того, какую 
цель преследует обучение. Но далее сеть начинает 
постепенно модифицировать свою конфигурацию 
- состояние всех своих синаптических весов таким 
образом, чтобы минимизировать эту ошибку. 

Для обучения описанной нейронной сети был ис- 
пользован алгоритм обратного распространения 
ошибки ( Ьаск ргора$аІіоп). Метод был предложен в 
1986 г. Румельхартом, Макклеландом и Вильямсом [5]. 

Обучение сети начинается с предъявления обра- 
за и вычисления соответствующей реакции. Срав- 
нение с желаемой реакцией дает возможность изме- 
нять веса связей таким образом, чтобы сеть на сле- 
дующем шаге могла выдавать более точный резуль- 
тат. Обучающее правило обеспечивает настройку 
весов связей. Информация о выходах сети является 
исходной для нейронов предыдущих слоев. Эти 
нейроны могут настраивать веса своих связей для 
уменьшения погрешности на следующем шаге. 

Когда ненастроенной сети предъявляется вход- 
ной образ, она выдает некоторый случайный вы- 
ход. Функция ошибки представляет собой разность 
между текущим выходом сети и идеальным выхо- 
дом, который необходимо получить. Для успешно- 
го обучения сети требуется приблизить выход сети 
к желаемому выходу, т. е. последовательно умень- 
шать величину функции ошибки. Это достигается 
настройкой межнейронных связей. Каждый ней- 
рон в сети имеет свои веса, которые настраивают- 
ся, чтобы уменьшить величину функции ошибки. 
Выражение для коррекции синаптических коэф- 
фициентов имеет вид: 

и 'Ѵ( ? + 1 ) = и 1 / (0 + ' 7 — , ( 1 ) 

аѵ г 

где щ(І) и щ{і+ 1) - вес связи между і-м и у-м ней- 
ронами на текущем и последующем шаге обучения, 

— производная функции ошибки, г / - пара- 
метр скорости обучения. 
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В основе алгоритма обратного распространения 
ошибки лежит методика, позволяющая быстро вы- 
числять вектор частных производных (градиент) 
сложной функции многих переменных, если струк- 
тура этой функции известна. В качестве такой 
функции в алгоритме рассматривается функция 
ошибки сети и учитывается тот факт, что структура 
функции ошибки сети полностью определяется ар- 
хитектурой нейронной сети, которая считается из- 
вестной. 

Метод обратного распространения ошибки мо- 
жет быть очень медленным особенно для много- 
слойных сетей, где поверхность целевой функции 
является неквадратичной, невыпуклой и высоко 
размерной с множеством локальных минимумов 
и/или плоских областей. 

Чтобы вычислить градиент на каждой итерации, 
ур. (1) должно быть рассчитано для всего обучаю- 
щего набора данных. Эта процедура называется па- 
кетным обучением; при таком способе обучения 
вся обучающая выборка рассматривается до обно- 
вления синаптических коэффициентов. Альтерна- 
тивно, можно использовать стохастическое обуче- 
ние (онлайн), где отдельный пример {21,/),} выбран 
(например, случайно) из учебного набора на каж- 
дой итерации. Поскольку эта оценка градиента яв- 
ляется зашумленной, синаптические коэффициен- 
ты, возможно, не перемещаются точно по градиен- 
ту на каждой итерации. Как далее будет показано, 
этот «шум» на каждой итерации может быть полез- 
ным. Стохастическое обучение - более предпочти- 
тельный метод для алгоритма обратного распро- 
странения ошибки: результат достигается обычно 
намного быстрее, чем при пакетном методе. 

Стохастическое обучение часто приводит к луч- 
шим решениям из-за шума в обновлениях весовых 
коэффициентов. Нелинейные сети обычно имеют 
множество локальных минимумов различной глу- 
бины. Цель обучения состоит в том, чтобы опреде- 
лить местонахождение одного из этих минимумов. 
Пакетное обучение обнаружит минимум любого 
бассейна, куда первоначально помещены синапти- 
ческие коэффициенты. В стохастическом обуче- 
нии шумовая составляющая в обновлениях может 
привести к весам, вскакивающим в бассейн друго- 
го, возможно более глубокого локального миниму- 
ма. Результаты экспериментов [6] говорят о том, 
что затраты на одномерную оптимизацию шага не 
дают практической пользы, обучение по суммар- 
ному градиенту (с оптимизацией шага или без неё) 
всегда проигрывает стохастическому обучению. 

Нелинейные активационные функции - то, что 
придает нейронным сетям их нелинейные свой- 
ства. В данной работе в качестве активационной 
функции используется гиперболический тангенс. 
Это обусловлено следующими причинами: 

• симметричные активационные функции, типа 

гиперболического тангенса, обеспечивают бо- 
лее быструю сходимость, чем стандартная логи- 
стическая функция; 


• данная функция имеет простую и непрерывную 
первую производную. 

В задачах классификации целевые выходы ти- 
пично являются бинарными (например, ±1), т. е. 
целевые выходы устанавливаются по асимптотам 
активационной функции. Такой подход имеет нес- 
колько недостатков. 

1. Результат обучения может быть нестабилен. 
Процесс обучения будет настраивать выход 
нейронной сети как можно близко к целевым 
значениям, которые могут быть достигнуты 
только асимптотически. В результате синапти- 
ческие коэффициенты (выходного слоя и скры- 
тых слоев) стремятся к большим и большим 
значениям, в которых производная актива- 
ционной функции близка к нулю. В результате 
коррекция синаптических коэффициентов мо- 
жет стать незначительной. 

2. В случае если выходы насыщенные, сеть не дает 
уверенности в правильности классификации. 
Когда входной образ находится на границе ре- 
шения, результат классификации сомнителен. 
Большие значения весовых коэффициентов 
имеют тенденцию смещать выходное значение 
к хвостам активационной функции независимо 
от класса. Таким образом, сеть может предска- 
зать неправильный класс, не давая уверенности 
в результате. Решение этих проблем состоит в 
том, чтобы заставить целевые выходы быть в 
пределах диапазона активационной функции. 
Установка целевых значений на грани максиму- 
ма второй производной активационной функ- 
ции - лучший способ использовать в своих ин- 
тересах нелинейность, не насыщая активацион- 
ную функцию. По этой причине используется 
указанная функция активации. Она имеет мак- 
симальную вторую производную в точках ±1, 
которые соответствуют целевым значениям, ис- 
пользуемым в задачах классификации. 
Начальная инициализация синапсов нейрон- 
ной сети имеет огромное влияние на количество 
итераций обучения. От того, насколько удачно вы- 
браны начальные значения синаптических коэф- 
фициентов зависит, как долго сеть за счет обучения 
и подстройки будет искать их оптимальные вели- 
чины, и найдет ли она их. Начальные значения си- 
наптических коэффициентов могут существенно 
влиять на процесс обучения. Синаптические коэф- 
фициенты должны быть выбраны случайно, но та- 
ким способом, чтобы активационная функция 
прежде всего активизировалась в своей линейной 
области. Как показано в работе [4] для достижения 
данного эффекта необходимо согласование между 
нормализацией входных значений нейронной се- 
ти, выбором активационной функции и выбором 
начальных значений весовых коэффициентов. Та- 
ким образом, для выбранной активационной 
функции и выбранного метода нормализации 
входных данных в данной работе синаптические 
коэффициенты инициализировались следующим 
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образом: значения весовых коэффициентов были 
выбраны случайным образом из нормального ра- 
спределения с нулевым средним и стандартным от- 
клонением 



где т - число связей, входящих в нейрон. 

В выражении ( 1) параметр г\ по сути является ме- 
рой точности обучения сети. Чем он больше, тем бо- 
лее грубым будет следующее уменьшение суммар- 
ной ошибки сети. Чем он меньше, тем больше вре- 
мени сеть будет тратить на обучение и тем более воз- 
можно ее попадание в окрестность локального ми- 
нимума. Интуитивно понятно, что выбор индивиду- 
альной скорости обучения для каждого синаптиче- 
ского коэффициента может ускорить сходимость и 
улучшить качество решения (в зависимости от фор- 
мы поверхности функции ошибки, некоторые веса 
могут требовать небольшой скорости обучения, что- 
бы избежать расхождения, в то время как другие мо- 
гут требовать большого значения скорости обуче- 
ния, чтобы ускорить схождение алгоритма). Поэто- 
му в данной работе каждому синаптическому коэф- 
фициенту дана индивидуальная скорость обучения. 
Для автоматической подстройки скорости обучения 
на каждой итерации обучения использовался алго- 
ритм, предложенный в работе [7]. 

Как входами, так и выходами могут быть совер- 
шенно разнородные величины. Очевидно, что ре- 
зультаты нейросетевого моделирования не должны 
зависеть от единиц измерения этих величин. А 
именно, чтобы сеть трактовала их значения едино- 
образно, все входные и выходные величин должны 
быть приведены к единому масштабу. Скорость 
сходимости обычно быстрее, если среднее значе- 
ние каждой входной переменной по учебному 
набору близко к нолю. Поэтому, нужно отмасшта- 
бировать входные значения так, чтобы среднее чи- 
сло по учебному набору было близко к нолю )4]. 
Таким образом, в данной работе все входные значе- 
ния из интервала [0; 255] (т. е. цвет пиксела от чер- 
ного до белого) были предварительно отмасштаби- 
рованы в интервал [-1; 1]. 

В качестве учебного набора используется боль- 
шая коллекция изображений, полученных из раз- 
личных источников. Эта коллекция эффективно 
охватывает изменчивость и богатство естественных 
данных, чтобы обучить данную систему для работы 
в реальных условиях. В данной работе, использует- 
ся окно размером 32x36 пикселей, содержащее ли- 
цо и некоторую часть фона, таким образом, добав- 
ляя к входному окну некоторую вспомогательную 
информацию: границу лица и некоторую часть фо- 
на. В процессе извлечения лиц не выполнялось ка- 
кой-либо нормализации изображений типа вырав- 
нивания гистограммы или коррекции яркости. 
Кроме того, примеры лиц не нормализовывались 
так, чтобы глаза, рот и другие части лиц всегда 
оставались примерно на том же самом положении. 
Кроме того, как упомянуто ранее, сверточная ней- 


ронная сеть является устойчивой к изменению 
масштаба и положения, таким образом, для повы- 
шения этой надежности необходимо давать ней- 
ронной сети ненормализованные примеры. Кроме 
того, для создания большого количества примеров 
и увеличения инвариантности к небольшим вра- 
щениям и изменениям в интенсивности, к выше 
упомянутому набору применялся ряд преобразова- 
ний, включая отражение, вращение до ±20°. Неко- 
торые из изображений обучающей выборки пред- 
ставлены на рис. 2. 
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Рис. 2. Изображения из лицевой обучающей выборки 


Сбор представительного набора нелицевых об- 
разов более труден, т. к. фактически, любое изобра- 
жение может принадлежать к классу нелицевых об- 
разов. Практическое решение этой проблемы со- 
стоит в стратегии самонастройки [8], при которой 
система многократно переобучается на ряде изо- 
бражений пейзажа, которые не содержат лиц. Пе- 
ред началом процедуры самонастройки, был по- 
строен начальный учебный набор. Большинство из 
этих изображений содержит части лиц, поскольку 
как было замечено в ранних экспериментах, этот 
вид изображений является серьезным источником 
ложных сигналов. Некоторые из этих изображений 
показаны на рис. 3. 



Рис. 3. Изображения из стартовой нелицевой обучающей 
выборки 


Процесс обнаружения лица состоит из 3 этапов 
(рис. 4): 

1. Входное изображение последовательно мас- 
штабируется, получается пирамида изображе- 
ний, затем каждое изображение сканируется 
нейронной сетью, происходит выделение участ- 
ков-кандидатов. 

2. Все участки-кандидаты приводятся к масштабу 
входного изображения, и затем смежные участ- 
ки-кандидаты группируются в кластеры, устра- 
няя избыточность. 

3 . Далее происходит дальнейшая проверка класте - 
ров, выносится решение о принадлежности или 
не принадлежности каждого участка к классу 
лиц. 

Нами было произведено тестирование данной 
программной системы на наборе из 120 изображе- 
ний. На данном тестовом наборе получена точ- 
ность обнаружения равная 97 %. Исходя из этого, 
считаем, что предложенная нами топология свер- 
точной нейронной сети обеспечивает необходи- 
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Рис. 4. Процесс обнаружения лица 


мую надежность и инвариантность к искажениям и 
зашумлениям входного сигнала, что позволяет соз- 
дать на ее базе систему выделения сюжетной части 
изображения. Модификации процесса обучения 
обеспечивают качественный процесс обучения 
нейронной сети, улучшают ее обобщающие и клас- 


сифицирующие способности, позволяют исполь- 
зовать данную программную систему для решения 
практических задач в системах видеонаблюдения и 
контроля доступа. 

Работа выполнена при поддержке РФФИ, проект 
№ 06 - 08 - 00751 . 
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УДК 004.9312 

МЕТОДИКА ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ АВТОМОБИЛЬНОГО НОМЕРА 


А.И. Елизаров, А.В. Афонасенко 

Томский государственный университет систем управления и радиоэлектроники 
Е-таіІ: аІех§іао.ги 

Рассмотрена технология создания системы поиска и распознавания автомобильных номеров. Предлагаются модифицирован- 
ные алгоритмы, позволяющие повысить надежность и точность подобных систем. Данные алгоритмы использовались для соз- 
дания программного комплекса, состоящего из набора программных модулей, выполняющих предварительную обработку изо- 
бражений, обнаружение номерной пластины, извлечение символов, распознавание символов. 


Проблема автоматизированного оперативного 
распознавания текстовой информации является 
актуальной задачей, связанной с широким классом 
практических приложений. Одной из таких задач 
является распознавания автомобильных номеров. 
Создание автоматической системы, регистрирую- 
щей автомобильные номера, позволяет: 

• автоматизировать контроль въезда и перемеще- 
ния транспортных средств на объектах с огра- 
ниченным доступом и закрытых территориях; 


• отслеживать въезд и выезд на автостоянках, 
осуществлять автоматический подсчет стоимо- 
сти предоставленных услуг, контролировать 
свободное место; 

• автоматизировать контроль выезда оплаченных 
или неоплаченных транспортных средств на 
станциях технического обслуживания и авто- 
комбинатах, контролировать загрузку зоны об- 
служивания; 
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Рис. 1. Общая структура типовой системы распознавания автомобильных номеров 


• отслеживать въезд, выезд и время нахождения 
транспортных средств на территории склада и 
терминала, предотвращать возможные хище- 
ния; 

• на автомагистралях обеспечить контроль транс- 
портных потоков и осуществлять автоматиче- 
ское трассирование угнанных транспортных 
средств и тех, за которыми числятся правонару- 
шения; 

• автоматизировать сбор статистики для муници- 
пальных служб. 

На сегодняшний день в мире уже существует 
несколько систем автоматического распознавания 
автомобильных номеров. Все они далеки от совер- 
шенства и постоянно модифицируются. Тем не ме- 
нее, общая структура и решения данной задачи уже 
сформированы (рис. 1). 

Устройство съема изображения - видеокамера. 
На установку видеокамеры накладывается ряд 
ограничений. Оптическое разрешение камеры вы- 
бирается таким образом, чтобы номерная пластина 
занимала в кадре по горизонтали от 25 до 33 %. 
Максимально допустимая скорость автомобиля, 
при которой возможно распознавание, зависит от 
угла наклона камеры к полотну дороги. В работе [1] 
декларируется: «Типовой угол наклона камеры дол- 
жен равняться 40°, чтобы впереди идущий автомо- 
биль не загораживал следующий», что также накла- 
дывает ряд ограничений. Вертикальный размер но- 
мерной пластины уменьшается пропорционально 
значению косинуса угла наклона камеры. Следова- 
тельно, необходимо увеличивать оптическое разре- 
шение, что приводит к сокращению ширины поля 
зрения. Некоторые номерные пластины могут быть 
установлены с наклоном в сторону дорожного по- 
лотна. При большом угле наклона распознавание 
таких номеров весьма проблематично. Оптималь- 
ной считается горизонтальная установка видеока- 
меры, т. е. на том уровне, где находиться номерная 


пластина. Такая установка используется в системах 
автоматического пропуска на закрытую террито- 
рию, парковки и т. д. 

Другим важным параметром является мини- 
мально допустимая контрастность изображения 
номерной пластины. В некоторых системах устана- 
вливается дополнительный модуль, состоящий из 
инфракрасной подсветки и соответствующего 
фильтра [2]. Такой подход позволяет повысить кон- 
трастность номерной пластины по отношению к 
остальному изображению. Эта технология основа- 
на на том, что номерная пластина имеет специаль- 
ное светоотражающее покрытие, при котором 
отраженный свет распространяется в обратном на- 
правлении распространению падающего света (т. е. 
угол между падающим и отраженным лучом равня- 
ется 0°), вследствие чего камерой будет восприни- 
маться в основном инфракрасный свет и свет, отра- 
женный от номерной пластины (рис. 2). Снимок в 
этом случае, будет монохромным без деталей, за 
исключением номерной пластины. 

Предобработка полученного изображения 
включает следующие этапы. 

1. Коррекция изображения - эквилизация, огра- 
ничение экстремальных значений яркости, ви- 
доизменение гистограммы распределения яр- 
костей. 

2. Устранение эффекта смазывания изображения, 
возникающего в связи с тем, что скорость авто- 
мобиля больше чем скорость регистрации (ком- 
пенсация сдвига). 

3. Устранение избыточной информации - ис- 
пользование инфракрасной (ПК) подсветки, 
бинаризация, разбиение изображения на от- 
дельные цветовые регионы. 

4. Использования программного детектора дви- 
жения для локализации автомобиля на изобра- 
жении. 



а б в 

Рис. 2. Предобработка изображения: а) оригинальное изображение, б) с применением ИК-подсветки, в) бинаризованное 
изображение 
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Недостатком предобработки с бинаризацией 
является то, что выбираемый порог бинаризации 
не обеспечивает необходимого качества для любо- 
го типа изображения. Такие факторы, как освеще- 
ние или даже цвет транспортного средства влияют 
на качество бинаризации изображения. Использо- 
вание методов адаптивной бинаризации позволяет, 
тем не менее, решить данную проблему более каче- 
ственно. 

Одним из применяемых подходов для локализа- 
ции номерной пластины является метод обнаруже- 
ния границ изображения с использованием таких 
алгоритмов как алгоритм Собеля, Кенни, Робинсо- 
на и др. [3]. Алгоритм обнаружения границ должен 
обнаруживать как горизонтальные, так и верти- 
кальные края. Результирующее изображение, после 
выделения краев должно содержать большое коли- 
чество линий в области пластины номерного знака, 
т. к. она содержит символы. Это основное свойство, 
которое используется для выделения области пла- 
стины номерного знака на изображении. 

Для локализации области номерного знака соз- 
дается окно, приблизительно равное размеру пла- 
стины номерного знака на изображении. Это окно 
используется, чтобы оценить количество граней во 
всех областях изображения, имеющих наибольший 
контраст. Окно накладывается на результирующее 
изображение в наиболее контрастных зонах. Если 
количество граней находится в заданном диапазо- 
не, то данная область отмечается как область, воз- 
можно содержащая номерной знак. Необходимое 
количество граней определяется эксперименталь- 
но. Результат работы этого окна - список возмож- 
ных областей - кандидатов, в которых может со- 
держаться пластина номерного знака. Основным 
недостатком этого подхода является то, что про- 
цесс выбора кандидата является медленным, по- 
скольку значения всех пикселей в выделенном ок- 
не должны быть неоднократно суммированы. Дру- 
гим недостатком является набор большого количе- 
ства кандидатов в номерные знаки. 

Альтернативным подходом для обнаружения 
номерной пластины является преобразование Ха- 
фа, которое используется для обнаружения участ- 
ков различных форм в изображении, таких как 
круг, эллипс, прямая и т. д. [4] 

На вход преобразования Хафа подается бинар- 
ное изображение с вертикальными и горизонталь- 
ными выделенными краями. На выходе преобразо- 
вания получаем набор прямых линий, ограничива- 
ющих предполагаемый номерной знак, то есть спи- 
сок возможных кандидатов на местоположение 
пластины номерного знака. 

Алгоритм преобразования Хафа для обнаруже- 
ния прямой линии выглядит следующим образом. 

1. Выбор начального пикселя А(х,у). 

2. Выбор конечного пикселя В(х,у). 

3. Подсчет точек бинарного изображения по ли- 
нии АВ. 


4. Если количество подсчитанных пикселей боль- 
ше, чем заданное пороговое значение, то линия 
АВ присутствует в изображении и помечается. 

5. Возврат к шагу 1 и выбор двух других пикселей, 
пока не достигнута последняя точка изображения. 

Горизонтальные и вертикальные пары линий 
сопоставляются. Горизонтальные и вертикальные 
пары линий, составляющие прямоугольник с отно- 
шением сторон примерно равных отношению сто- 
рон номерной пластины, отмечаются как область, 
возможно содержащую номер. 

Одним из недостатков преобразования Хафа яв- 
ляется тот факт, что вертикальные линии на номер- 
ном знаке значительно короче горизонтальных и, 
следовательно, могут быть более зашумленными. 

После того как номерная пластина локализова- 
на, выполняется операция обнаружения символов. 
Для устранения избыточной информации исполь- 
зуется алгоритм бинаризации. Выбор порога в ал- 
горитме осуществляется на основе яркостной ги- 
стограммы изображения, которая представляет со- 
бой одномерный массив //[0,255], в каждой ячейке 
которого содержится число точек изображения, 
имеющих значение интенсивности /. 

Согласно наблюдениям, автомобильный номер 
обладает следующим свойством: средняя площадь 
всех символов составляет около 23 % от площади 
всего номера, который имеет форму прямоуголь- 
ника. Для разных номеров отклонения от этого 
значения не превышают 5 %. В этом случае порог 
бинаризации Т может быть определен следующим 


выражением ^ //[ /] < 0,235, где А - площадь 

}= о 

прямоугольника, описывающего номер автомоби- 
ля. Результат работы данного алгоритма предста- 
влен на рис. 3. 
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Рис. 3. Бинарное изображение 
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Рис. 4. Горизонтальная проекция (распределение средней 
интенсивности) номерной пластины 


Следующим шагом является поиск отдельных сим- 
волов. Для этой цели мы используем метод, основан- 
ный на построении проекции средней интенсивности 
(рис. 4). Суть этого подхода сводится к следующему, 
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вычисляется средняя интенсивность в каждом столбце, 
и в тех местах, где нет символа, средняя интенсивность 
будет значительно отличаться. Далее выполняя ту же 
операцию по строкам, получается набор отдельных 
символов, которые уже можно распознавать. 

После выполнения данной операции мы можем 
получить как символы, так и различные помехи, 
которые необходимо устранить. Это достигается 
путем проверки ряда условий, которым должен 
удовлетворять символ как геометрический объект. 

Во-первых, вычисляются размеры прямоуголь- 
ника, описывающего область-кандидат. Проверя- 
ется выполнение условия 0, 9 < — < 3, 5, где а и Ь — 

а 

соответственно ширина и высота объекта. Объек- 
ты, не удовлетворяющие данному соотношению, 
отбрасываются из рассмотрения. 


Во 
0,4 < 


-вторых, проверяется выполнение условия 

— <0,9, где к - высота прямоугольника, 
к 


описывающего номер автомобиля. Это соотноше- 
ние накладывает ограничение на минимальную и 
максимальную высоту символов по отношению к 
высоте номера. 


Наконец, третье условие имеет целью удаление 
мелких областей, не представляющих интереса. 
Среди объектов, удовлетворяющих вышеописан- 
ным условиям, выбирается объект с максимальной 
площадью описывающего прямоугольника 5 тах =а-Ъ. 
Затем среди оставшихся областей выбираются те, 


которые удовлетворяют условию 



> 0,1, где 5- 


площадь прямоугольника объекта-кандидата. 


Проверка этих несложных условий позволяет 
устранить все лишние объекты, выделив только во- 
семь знаков номера (рис. 5). 


МІ8ІУО, 7 » 


Рис. 5 . Выделенные символы 


Для распознавания символов нами использует- 
ся одна из модификаций шрифтового алгоритма - 
метод зон [6] . Данный метод основан на сравнении 
зонного представления изображения символа с 
эталонным набором зонных представлений симво- 
лов. Поэтому алгоритм распознавания состоит из 
трех основных процедур: обучение, загрузка набо- 
ра эталонных зонных описаний, распознавание. 

На этапе обучения использовался полный эта- 
лонный набор бинарных изображений символов, 
изображения всех допустимых символов. При этом 
для каждого эталонного изображения в наборе вы- 
полнялись следующие действия. 

• Определение минимального прямоугольника, 
содержащего все черные пиксели. 

• Равномерное разбиение рамки на ТѴхД/ прямоу- 
гольных зон. 

• Подсчет числа пикселей, принадлежащих каж- 
дой зоне. 

• Формирование вектора зонного описания, со- 
стоящего из значений числа черных пикселей 
для каждой зоны, нормированных путем деле- 
ния на суммарное число черных элементов все- 
го изображения. 

Подсчет числа пикселей, принадлежащих каж- 
дой зоне, осуществляется путем голосования чер- 
ных пикселей. При этом каждый пиксель рассма- 
тривается как квадрат размером 1x1, положение 
границ зон рассчитывается с субпиксельной точ- 
ностью, и каждый черный пиксель голосует в поль- 
зу тех зон, с которыми он пересекается, с весом, 
равным площади пересечения. 

В результате этапа обучения для каждого символа 
формируется файл зонных описаний, имя символа в 
А5СІІ-кодс и вектор зонного описания размера /Ѵх А/ 
с элементами типа } ІоаГ . Вектор зонного описания за- 
писывается по строкам, слева направо сверху вниз. 

При загрузке эталонных данных происходит 
считывание эталонного файла и формирование со- 
ответствующего списка эталонных векторов зон- 
ных описаний. 


Поскольку автомобильный номер содержит 
ограниченный набор символов фиксированного 
шрифта, в данном случае целесообразно примене- 
ние шрифтового алгоритма распознавания. Прин- 
цип действия основан на прямом сравнении изо- 
бражения символа с эталоном. Степень несходства 
при этом вычисляется как количество несовпа- 
дающих пикселей. Для обеспечения приемлемой 
точности шаблонного метода требуется предвари- 
тельная обработка изображения: нормализация 
размера, наклона и толщины штриха. Эталон для 
каждого класса обычно получают, усредняя изобра- 
жения символов обучающей выборки. 

Этот метод прост в реализации, работает бы- 
стро, устойчив к случайным дефектам изображе- 
ния, однако имеет относительно невысокую точ- 
ность. Широко используется в современных систе- 
мах распознавания символов. 


При анализе каждого символа производятся 
следующие операции: 

1. формирование вектора зонного описания; 

2. формирование вектора расстояний; 

3. классификация символа на основе вектора рас- 
стояний. 

Формирование вектора зонного описания осу- 
ществляется, как было описано ранее для эталон- 
ных изображений. 

Формирование вектора расстояний предпола- 
гает последовательное вычисление евклидовых 
расстояний между вектором зонного описания те- 
стируемого символа и векторами зонных описаний 
каждого эталона в списке. Классификация симво- 
ла осуществляется путем анализа вектора расстоя- 
ний и выбора «ближайшего соседа» среди эталон- 
ных зонных описаний. 
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Рис. 6. Эталонное изображение символа «8» 

С учетом структуры штрихов начертания симво- 
лов, для размера изображений символов порядка 
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10x15 пикселей оптимальным числом зон будет 
ТѴхА/, где N=5 и М= 5. При таком выборе зонного 
разрешения использованный способ нормирования 
вектора зонного описания позволяет обеспечить 
устойчивость данного метода распознавания к изме- 
нению толщины штрихов символа вследствие неста- 
бильности яркостных характеристик изображения. 

На рис. 6 показано эталонное изображение 
символа «8», разбиение на зоны и пиксельные веса 
каждой зоны. 

Описанная выше, последовательность алгорит- 
мов была использована при создании программы 
поиска и распознавания автомобильных номеров. 
Программа разработана в среде БеІрЫ 7 и протести- 
рована на 200 изображениях, вероятность распозна- 
вания автомобильного номера составила 85 %. 
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